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展 ， 参 与 社交 网 络 的 用 户 也 越 来 越 多 。 据 CNNIC 发 布 的 第 41 荐 方法 等 P3， 这些 方法 在 好 友 推 荐 、 新 闻 推 荐 、 音 乐 推荐 

次 《中 国 互 联网 络 发 展 状况 统计 报告 》 吓 显示 , 截止 2017 年 12 图 有 很 多 实际 的 应 用 。 个 性 化 推荐 中 一 个 很 重要 的 研究 是 相似 

月 ， 微 博 用 户 超过 3.1 亿 , 年 增长 率 达 到 16.4%。 愈加 庞大 的 用 度 计 算 方 法 向 , 如 它 

数 使 得 用 户 在 微 博 中 搜索 信息 、 建 立 互动 关系 时 ， 会 因 信 用 户 进行 相关 推荐 的 基础 。 大 多 数 传统 的 推荐 算法 是 根据 
网 


息 过 载 的 问题 而 困惑 。 如 何 帮 助 用 户 在 大 量 的 人 群 节点 中 发 现 。 “对 项 目的 历史 评分 数据 ， 建 立 相应 的 用 户 兴趣 模型 ， 依 出 


户 


融合 兴趣 的 微 博 用 户 相似 度 计算 研究 ， 


黄 贤 英 ， 阳 安 志 ， 刘 小 洋 ， 刘 广 峰 


(重庆 理工 大 学 计算 机 科学 与 工程 学 院 , 重庆 400054) 


i 要 : 针对 传统 基于 用 户 的 博文 内 容 和 共 A 人 时 存在 潜在 误差 过 WA 而 基于 用 
多 源 背 景 信息 的 相似 度 计算 模型 ， 有 计算 复杂 度 高 且 忽 咯 了 用 户 的 兴趣 等 问题 ， 提 出 了 一 种 结合 用 户 兴 趣 和 背景 信 

息 的 综合 相似 度 计算 方法 (BIBS)。 首 先 从 用 户 的 标签 es 当 用 户 的 标签 缺失 时 ， ss 

网 络 中 的 重要 用 户 聚 类 来 间接 获取 用 户 的 兴趣 点 ， 以 此 计算 用 户 的 兴趣 相似 度 ; 其 次 根据 用 户 的 性 别 、 年 龄 和 地 点 等 

背景 属性 计算 用 户 的 背景 相似 度 , 层次 化 的 挖 据 出 最 相似 的 用 户 ; 最 后 基于 新 浪 微 博 的 数据 进行 实验 分 析 。 结果 表明 ， 

与 基于 多 源 信 息 相 似 度 关 轴 答 寺 而 关 汪 这 汪 WNSURO 该 方法 在 用 时 更 少 的 情况 下 ， 准 确 率 、 召 回 率 和 下 值 分 别 

提高 了 8.1%、16.7% 和 13.6%， 证 明了 提出 的 BIBS 方法 的 有 效 性 和 准确 性 
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Research on similarity computation of microblog users combining user interests 


Huang Xianying, Yang Anzhi, Liu Xiaoyang, Liu Guangfeng 
(School of Computer Science & Engineering, Chongqing University of Technology, Chongqing 400054, China) 


Abstract: The traditional method of calculating the similarity of the Microblog users based on the user's blog content and the 
number of common friends has the problem of excessive potential error, and the similarity calculation model based on the user's 
multi-source background information has high computational complexity and ignore the user's interest and other issues, the 
author puts forward a combined with user's interest and background information to calculate the comprehensive similarity 
(BIBS) . The method extracts the user's interest from the user's tag. When the user's tag is missing, the user's interest is indirectly 
obtained by clustering the important user in the user's attention network, and the user's interest similarity is calculated, and then 
the background similarity of the user is calculated according to the background information such as the gender, age and location 
of the user, so that the most similar users are hierarchically mined. Experiments and analysis based on the data of Sina Microblog 
show that compared with MISUR algorithm based on the similarity of multi-source information, the algorithm can improve the 
accuracy, recall rate and F-measure by 8.1%, 16.7% and 13.6% respectively with less time consuming, which proves the 
effectiveness and accuracy of the proposed BIBS method. 


Key words: Microblog; interest; user clustering; similarity calculation 
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其 兴趣 点 ,这 对 于 社交 网 络 平 台 和 用 户 都 具有 极其 重要 的 意 
解决 这 个 问题 有 效 的 方法 之 一 就 是 个 性 化 推荐 。 传 统 推荐 领域 


引言 


随 着 信息 技术 的 进一步 提高 ， 在 线 社交 网 络 得 到 快速 的 发 。 ”的 方法 包括 协同 过 滤 推 荐 方法 、 基 于 内 容 的 推荐 方法 和 混合 推 


户 相 似 度 计算 、 物 品 相 似 度 计算 等 ， 
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录用 定稿 黄 贤 英 ， 等 : 融合 兴趣 的 微 


用 户 的 相似 度 ， 产 生 推 荐 结果 。 随 着 Web 2.0 的 快速 发 展 ， 国 
外 的 Twitter、Facebook， 国 内 的 新 浪 微 博 等 在 线 社 交 网 络 的 流 
行 ， 促 使 传统 推荐 系统 融合 微 博 用 户 的 背景 信息 和 社会 行为 信 
息 为 用 户 进行 相关 推荐 。 
近年 来 ， 在 微 博 推荐 领域 ， 提 出 了 很 多 新 的 用 户 相似 度 计 
算 方 法 ， 如 徐 志明 等 人 名 针对 微 博 用 户 信息 的 特点 ， 综 合 考虑 
用 户 的 背景 信息 、 微 博文 本 和 社交 信息 等 属性 来 计算 用 户 的 相 
似 度 。 文 献 [6,7] 结 合用 户 的 性 别 、 年 龄 及 博文 内 容 等 信息 ， 提 
出 了 基于 余弦 距离 的 用 户 相似 度 综合 计算 方法 ， 而 姚 彬 修 等 人 
四 结合 用 户 的 博文 内 容 、 交 互信 息 和 共同 粉丝 数 ， 提 出 了 基 
多 源 信息 相似 度 的 微 博 用 户 推荐 算法 。 这 些 方法 都 综合 考虑 了 
用 户 的 多 方面 信息 来 构建 对 应 的 特征 向 量 ， 利 用 余弦 距 离 来 控 
掘 相似 用 户 。 但 由 于 微 博 的 博文 内 容 有 最 大 长 度 的 限制 ， 直 接 
构建 用 户 特征 向 量 ， 利 用 余弦 相似 性 不 足以 衡量 微 博 用 户 的 相 
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协同 过 滤 推 荐 算法 ， 根 据 用 户 对 项 目的 评分 矩阵 ， 计 算 用 户 间 
的 相似 度 ， 找 出 与 目标 推荐 用 户 最 近邻 的 用 户 集合 ， 然 后 对 最 
近邻 居 集 合 进行 加 权 ， 最 后 产生 目标 用 户 的 推荐 集 ， 此 类 算法 
能 够 有 效 地 使 用 相似 用 户 的 反馈 信息 来 为 用 户 产生 推荐 结果 
1。 随 着 社交 网 络 的 快速 发 展 ， 个 性 化 推荐 技术 也 在 社交 网 络 
中 得 到 了 不 同 程度 的 应 用 ， 微 博 领域 中 的 相关 推荐 方法 也 越 来 
越 多 。 较 早 提出 的 方法 是 根据 用 户 之 间 的 共同 邻居 数量 来 计算 
微 博 用 户 的 相似 度 , 如 共同 邻居 CN (common neighbors ) 模 型 、 
Jaccard 相似 度 计算 模型 ，CN 相似 度 模型 的 计算 公式 如 下 : 
[ICN(A) MCNB) 

[Cr Doms) (1D) 
其 中 : Sim(4,8) 代表 用 户 4、8 的 相似 度 ，CN(4) 代表 用 户 4 的 好 
友和 集合 ，CN(B) 代表 用 户 8 的 好 友 集 合 , 用户 4、8 的 共同 好 友 
数 越 多 ， 表 明 4 、3 越 相似 。 但 这 类 算法 推荐 结果 的 准确 性 较 


Sim(A, B) = 


似 性 外， 此 外 还 会 有 洪 在 误差 过 大 、 计 算 复 杂 度 高 等 问题 ， 而 
He 等 人 09 根 据 博文 的 转发 关系 网 络 对 用 户 进行 聚 类 ， 发 现 同 
区 的 用 户 有 相似 的 兴趣 ， 表 明 在 社交 网 络 中 ， 用 户 的 交际 


差 ， 一 方面 ， 它 忽略 了 来 自 微 博 用 户 自身 的 信息 ， 如 用 户 的 喜 
好 、 年 龄 等 信息 ， 另 一 方面 ， 与 现实 朋友 关系 不 同 ， 社 交 网 络 
中 的 用 户 不 可 能 与 好 友 列 表 中 的 每 个 用 户 有 较 强 的 联系 ， 基 于 


社 
圈 更 多 是 建立 在 共同 的 兴趣 上 ， 结 合用 户 的 兴趣 ， 能 准确 的 发 
社 


现 社区 中 的 相似 用 户 。 文 献 [11-13] 都 是 基于 用 户 的 兴趣 来 计算 


用 户 的 相似 度 。 黄 宏 程 等 人 0 研究 了 微 博 用 户 的 长 、 短 时 兴趣 ， 
利用 兴趣 相似 度 来 预测 用 户 的 关系 ; 陈 杰 等 人 M9 提出 一 种 基于 
用 户 动态 兴趣 的 社交 网 络 的 微 博 推荐 方法 。 结 合用 户 兴 趣 进 行 
相关 推荐 变 得 越 来 越 流行 , Xing 等 人 0 深入 研究 了 用 户 自身 的 
多 方面 信息 ， 提 出 可 以 利用 用 户 的 博文 内 容 、 自 定义 标签 及 关 
注 关系 来 挖掘 用 户 的 兴趣 ， 表 明 微 博 用 户 的 自 定义 标签 比 博文 
内 容 能 更 加 准确 的 反映 用 户 的 实际 兴趣 。 马 慧 芳 等 人 03 也 深入 
研究 了 用 户 的 自 定义 标签 来 为 用 户 进行 推荐 。 虽 然 基于 标签 的 
荐 更 加 准确 、 有 效 ， 但 微 博 中 有 大 量 普通 用 户 并 没有 自 定 义 


共同 好 友 数 产生 的 推荐 结果 ， 用 户 满意 度 较 低 。 
1.2 融合 多 源 信息 方法 

针对 传统 推荐 算法 存在 的 问题 ， 研 究 人 员 开始 结合 微 博 用 
户 自 身 的 背景 信息 来 计算 用 户 的 相似 度 ， 文 献 [5] 考 察 了 用 户 的 
背景 信息 、 微 博文 本 信息 和 社交 信息 来 计算 用 户 相似 度 ， 文 献 
[6] 提 出 结合 用 户 背 景 信息 和 互动 信息 构成 的 综合 相似 度 计 算 
模型 ， 而 文献 [8] 首 先 将 用 户 的 博文 内 容 进行 预 处 理 、 分 词 ， 为 
了 获得 微 博 内 容 的 关键 词 表 ， 使 用 了 一 种 用 于 信息 检索 与 数据 
挖掘 的 加 权 技 术 TF-IDF (term-frequency-inverse-document- 
frequency), 利用 余弦 距离 计算 博文 的 内 容 相似 度 , 再 根据 两 个 
户 间 对 彼此 微 博 的 兴趣 度 来 计算 用 户 交 互 行为 的 相似 度 ， 最 


Sg 


标签 ， 文 献 [14,15] 列 举 了 提取 用 户 兴趣 的 一 些 方法 ， 如 从 用 户 
个 人 资料 和 博文 内 容 中 提取 兴趣 ， 而 仲 兆 满 等 人 09 研 究 发 现 ， 
通过 用 户 的 关注 关系 间接 获取 用 户 兴 趣 的 方法 是 合理 `\ 有 效 的 ， 
用 户 因 对 某 个 明星 感 兴趣 ， 才 会 关注 他 ， 这 体现 了 用 户 对 该 明 
星 所 在 领域 感 兴趣 。 
本 文 分 析 了 微 博 用 户 的 关注 关系 网 络 结构 ， 因 为 大 量 普通 
用 户 缺 少 代 表 其 兴趣 的 自 定义 标签 ， 所 以 提出 利用 用 户 关 注 关 
系 中 的 重要 用 户 来 间接 获取 用 户 的 兴趣 的 方法 。 首 先 利 用 
PageRank 算法 挖掘 出 被 关注 的 重要 用 户 ， 然 后 对 其 进行 聚 类 ， 
间接 的 获取 用 户 兴 趣 ， 最 后 构建 了 基于 兴趣 和 背景 信息 的 用 户 
相似 度 计 算 方 法 BIBS(calculation of similarity based on user's 
interest and background information)。 实 验 结果 表明 ， 该 方法 能 


更 加 准确 的 计算 微 博 用 户 的 相似 度 。 
1 ”相关 研究 


1.1 传统 计算 方法 
在 传统 电子 商务 服务 中 ， 个 性 化 推荐 技术 通过 研究 用 户 的 
兴趣 爱好 ， 为 客户 推荐 其 感 兴趣 的 商品 等 资源 。 如 基于 用 户 的 


后 基于 用 户 双 方 的 共同 关注 好 友 数 和 粉丝 数 来 计算 用 户 的 社交 
关系 相似 度 ， 提 出 了 基于 用 户 多 源 信息 的 相似 度 计 算 方 法 
MISUR (userrecommendation algorithm based on the similarity of 


multi-source information )， 各 部 分 的 计算 公式 定义 如 式 (2)~(5)。 


Sim (u,v) = COS (m(w),m(v)) 营 


GO) 


其 中 : sim(u,v) 表示 用 户 *、v 的 博文 内 容 相 似 度 ，mlw) 、m) 表 
j 户 4、v 的 博文 文本 向 量 。 


示 | 


> -0, -») 


reblog 


Sim, (u,v) 


G3) 


其 中 : sinw(u,v) 表示 用 户 &、" 的 交互 行为 相似 度 , wu 和 vw 分 别 表 
示 用 户 *、*v 对 共同 交互 过 的 微 博 + 的 兴趣 度 ，w 和 ;表示 用 户 
uw、v 对 所 有 交互 过 的 微 博 的 兴趣 的 平均 值 。 


Sins (u,v) = Wi x sim( Following(u), Following (v))+ 


(4) 


w, x sim( Follower(u), Follower(v)) 


w+w, =1 (5) 
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其 中 : sim(u,v) 表示 用 户 u、 


Following(v) 表示 用 户 u、v 


最 后 将 上 


I 社交 关系 相似 度 , Following(w) 、 
司 关 注 的 好 友 数 相似 ，Follower(u) 、 
fohowerty 表示 共同 粉丝 数 相似 ， 几 和 必 表 示 各 部 分 的 权重 。 


似 度 三 部 分 进行 综 


这 些 计算 7 


以 度 和 社交 关系 相 
言 恩 相似 度 。 


法 都 综合 考虑 了 用 户 闪 


距离 来 计算 微 上 
所 发 博文 随机 性 多 


方面 信息 ， 利 用 余弦 
但 仍 有 一 些 问题 。 如 ， 用 户 的 
ee 


另外 根据 用 户 


对 较 大 。 


1.3 用 户 兴趣 挖掘 


Cosine 来 计算 


用 户 的 相似 度 ， 在 实际 应 用 


峰 源 较 多 ， 计 算 复杂 性 相 


社交 网 络 中 用 
了 挖掘 出 微 博 用 户 区 
息 ， 发 现 经 过 新 浪 微 博 


户 的 交际 更 多 的 是 建立 在 共 
ke We 的 标签 信 
丰 用 户 (加 V 用 户 ) 明显 


比 普通 用 户 倾向 


息 中 获取 微 掉 


稳定 的 。 


兴趣 之 上 ， 为 


的 标签 ， 实 验 表 明 从 标签 信 
] 户 的 兴趣 的 方法 最 有 效 ; 文献 [11] 研 究 了 用 户 


的 长 、 短 时 兴趣 ， 表 明 标 签 可 以 代表 用 户 的 长 


期 兴趣 ， 是 相对 


出 用 户 的 兴趣 ， 很 多 明星 


义 标签 ， 所 以 只 利用 标签 


性 。 


研究 表明 ， 通 过 


是 有 效 的 9， 


有 : 社会 闲 杂 人 等 、 主 持 人 )， 


Si Ee 己 定 
数 博 用 户 的 兴趣 存在 局 限 


户 兴趣 的 方法 


=” 的 关注 关系 间接 获取 用 
关注 了 明星 谢娜 〈 自 定义 标签 
说 明 这 两 个 用 户 可 能 都 对 主持 人 


微 博 社 交 网 


页 测 出 他 们 可 能 对 娱乐 节目 、 综 艺 等 领域 


a Ba 相 比 于 从 用 户 博 
， 通 过 用 户 关注 关系 挖掘 出 用 户 兴 趣 
用 户 关 注 关系 挖掘 用 户 兴趣 
的 方法 ， 并 依 此 来 计算 微 博 用 户 的 兴趣 


2 ”基于 用 户 关注 关系 的 挖掘 兴趣 
2.1 用 户 关注 网 络 


— 
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2.2 重要 用 户 挖掘 

户 在 社交 网 络 中 的 关注 关系 可 以 被 视 为 有 向 链接 ， 著 名 
页 面 排序 算法 。 该 算 
， 最 初 是 为 了 实现 网 页 排 


的 基于 链接 的 排序 算法 之 一 是 
Google 的 两 位 创始 人 提 


日 当 某 些 页 


名 ， 在 搜索 引擎 中 被 广泛 使 用 。 页 


漏 ”和 “排名 下 沉 
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押 的 分 数 通过 不 断 的 迭代 计 
面 只 存在 入 链 或 出 链 时 ， 和 迭代 结果 会 出 现 
”的 问题 ,得 到 不 合理 的 排名 结果 。 


其 中 : PageRank(x) 、 
表示 x* 的 链 入 页 面 集合 ，N, 表示 页 


PageRank(x)=(1-d)+d >» 


办 代 分 数 能 收敛 。 


系数 ， 表 示 一 个 页 面 被 其 他 页 面 随 
面 引用 ,也 能 获得 上 
在 挖掘 重要 
PageRank(y) 表示 用 户 x 和》 的 如 
9 用 户 集合 或 互动 关系 集合 等 ， 


i 
HE 


仇 博 领域 中 ) 


下 


个 问题 ， 引 入 了 随机 浏览 模型 ， 即 每 个 页 面 都 可 以 
押 。 算 法 最 终 的 表示 如 下 : 


PageRank(y) 


(6) 


y 


PageRank(y) 表示 页 面 * 和 3 的 排名 分 数 ，L(%) 
面 了 总 的 链 出 数 ，d 是 阻尼 
L 访 问 的 概率 ， 即 使 页 面 x 
三 本 分 数 ， 保 证 页 面 的 


上 时， 公式 中 的 PageRank(x) 、 


户 的 特点 ， 大 量 的 而 


度 , L(x) 可 以 表示 用 户 x 所 关 
NN, 表示 对 应 集合 的 好 友 数 。 
侍 挖 掘 重要 用 户 时 ， 


了 改进 了 PageRank 算法 ， 如 曹 


通过 改进 PageRank 


昌 意 见 领 袖 。 


PageRank 算法 


关注 网 络 中 挖掘 


玄 用 户 兴趣 点 的 重要 用 户 ， 
兴趣 挖掘 

先 通过 PageRank 算法 挖掘 出 
用 户 的 标签 ， 构 建 
户 进行 聚 类 得 到 聚 类 结果 。 
(Cluster1, Cluster2 , Cluster3 ， 


其 中 ， Clusterl 到 ClusterN 表示 不 同 的 


网 


注 此 用 户 ， 也 可 以 关 汶 
用 户 也 可 以 关注 
络 。 在 这 个 关系 网 络 中 ， 
多 其 他 用 户 节 点 关注 
活跃 分 子 ， 他 们 对 其 
户 被 称 为 “意见 领 


FE 很 多 感 em 
许多 用 户 的 相互 关注 前 


实际 中 ， 这 些 用 户 通 借 


袖 ”(opinion 加 


是 
I 力 ， 这 些 重 要 用 
于 一 


= 感 兴趣 ， 他 可 以 关 


同样 的 ， 其 他 


i 构 成 了 关注 关系 网 
身 的 特点 ， 被 很 


网 络 社区 中 的 


用 户 在 不 同类 别 
《< 趣 向 量 ， 定 义 如 下 : 
Intertest(A)= (count] , COUNI2 , count3 ， 


其 中 : Intertest(4) 表示 用 户 4 的 兴 


土 夏 户 数 ， countN 表示 


| 
i 
池 
en 
CC 


| 


用 户 的 兴趣 。 


注 网 络 中 的 重要 用 户 ， 
户 的 标签 向 量 ， 以 此 对 重要 
果 的 类 别 向 量 定义 为 

0 (7) 


重要 月 


以 度 的 结果 。 基于 TF-IDF 的 } 


般 用 户 , 在 


用 户 关 注 的 好 友 中 ， 


能 代表 用 户 兴 趣 的 


能 代表 用 户 兴 趣 点 的 通常 是 网 络 中 的 这 


关注 关系 网 络 较为 复杂 ， 为 了 挖掘 出 
要 用 户 ， 采 用 PageRank 页 面 排序 算法 。 


兴趣 向 量 ， 如 式 (9) 所 示 。 


Intertest(A)= 


别 。 


中 关注 的 好 友 数 ， 构 建 该 用 户 的 


ee , CountN) (8) 
量 ， count7 表示 用 户 4 在 
户 4 在 类 别 N 中 关注 的 
当 用 户 在 某 一 类 别 中 会 有 较 多 的 关注 用 户 ， 会 干 


思想 , 对 其 进行 归 一 化 ， 


count] count2 count3 
Num,,” Num, 


countN (9) 
* Num,y 


其 中 : Intertest(4) 表示 用 户 4 的 兴趣 向 量 
用 户 数 ， Numw 表示 类 别 N 的 
余弦 距离 来 衡量 不 同月 


公式 如 式 (10) 所 示 。 


县 ， Nam 表示 类 别 1 中 的 
的 所 有 用 户 数 。 
3 的 兴趣 相似 度 ， 计 算 
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国 
国 


IV 


iINa 


ch 


录用 定稿 黄 贤 英 ， 等 : 
Simjiwea(A,B)=cos (Intertest(A), Intertest(B)) 
Intertest(A): Intertest(B) (10) 
|Intertest(A)| |Intertest (B)| 
其 中 : Sm(4,B3) 表示 用 户 4 和 8 的 兴趣 相似 度 ，Intertest( 人 4) 、 
Intertest(B) 表示 A 、B 的 兴趣 向 量 。 
为 了 进一步 说 明 该 方法 的 具体 计算 过 程 ,举例 如 图 1 所 示 。 


@ 用 尺 
2 
一 一 6 
2 


图 1 计算 例 图 
Fig.l Example of calculation method 

如 图 1 所 示 ， 将 用 户 关 注 关 系 中 的 重要 用 户 进行 聚 类 ， 结 
果 得 到 类 别 1、2 和 3， 其 中 用 户 4 关 注 了 类 别 1 和 2 中 的 用 
户 ， 用 户 B 关注 了 类 别 1、2 和 3 中 的 用 户 ， 因 此 用 户 4 的 兴 
趣 向 量 为 (2,1,0), 用 户 8 的 兴趣 向 量 为 (1,1,1)。 然后 对 其 进 
行 归 一 化 , 得 到 用 户 4 的 兴趣 向 量 为 (2/3, /2,0), 用 户 8 的 兴 
量 为 (13,12,1), 最 后 通过 余弦 距离 计算 得 到 用 户 A、B 
的 兴趣 相似 度 。 

通过 用 户 关注 关系 中 的 重要 
一 方面 可 以 在 普通 用 户 标 签 缺失 较 多 情况 下 , 挖掘 用 户 的 兴趣 ， 


做 
可 


户 来 间接 获取 用 户 的 兴趣 点 ， 
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多 方面 的 背景 信息 。 文 献 [3] 针 对 微 博 用 户 本 身 的 信息 ， 通 过 利 
用 用 户 的 位 置信 息 、 标 签 信息 和 个 人 描述 信息 来 计算 用 户 的 背 
景 相 似 度 。 在 此 基础 上 ， 文 献 [6] 结 合用 户 的 性 别 、 年 龄 和 地 理 
信息 来 计算 用 户 的 背景 相似 度 。 基 于 已 有 的 研究 ， 本 文 结合 
用 户 的 性 别 、 年 龄 和 地 点 信息 来 计算 微 博 用 户 的 背景 相似 度 。 

1) 性 别 

性 别 往往 是 衡量 一 个 人 的 重要 标准 
性 别 用 户 的 行为 差别 较 大 。 如 男性 用 户 一 般 会 对 体育 、 


在 微 博 领 域 中 ， 不 同 
科技 、 


时 政 等 方面 的 内 容 更 感 兴趣 , 而 女性 用 户 更 可 能 会 更 关注 美 妆 、 
综艺 娱乐 减肥 等 方面 的 信息 。 用 户 性 别 属性 的 定义 公式 如 下 : 
Be 让 A=“ 男 ” 
Ser 0 ， 下 =* 妇 ? (11) 


其 中 ，U,.(4) 表示 
2) 年 龄 
在 社交 网 络 中 ， 不 同年 龄 的 用 户 往 往 差别 较 大 。 不 同年 龄 
层 的 用 户 往往 拥有 不 同 的 经 历 、 阅 历 和 关注 点 ， 因 此 他 们 的 相 
以 度 较 小 。 一般 而 言 , 年 龄 差 越 小 , 年 龄 差 占 年 龄 的 比例 越 低 ， 
用 户 的 兴趣 越 接近 ， 其 相似 度 越 高 四 。 用 户 年 龄 属性 定义 如 式 
(12) 所 示 : 


户 4 的 性 别 。 


U8Ea ~ ABEmin 
ABEna ~ UB Enin 


其 中 : Vw.(4) 表 示 用 户 4 的 计算 年 龄 ， 
sem 表示 数据 中 的 最 大 年 龄 值 ， agew 
值 。 

3) 地 点 

在 实际 应 用 的 社交 推荐 系统 中 ， 有 很 多 基于 地 点 信息 的 推 
荐 ， 如 ， 附 近 的 人 的 推荐 。 文 献 [19-20] 都 是 基于 地 点 信息 来 控 


UlA )= (12) 


ages 表示 4 的 实际 年 龄 ， 
。 表示 数据 中 的 最 小 年 龄 


ll 


户 


进而 为 用 户 进行 相关 推荐 ， 男 一 方面 ， 与 传统 的 直接 利用 用 
的 背景 信息 特征 向 量 来 计算 用 户 相 似 度 的 算法 相 比 ， 该 方法 不 


Mp 


掘 相 似 用 户 ， 并 取得 了 不 错 的 效果 ， 结 合 地 点 信息 的 推荐 受到 
越 来 越 多 的 用 户 喜 爱 。 微 博 中 ， 用 户 的 地 点 信息 包括 省 份 ， 地 


必 对 每 一 个 用 户 进 行 计 算 ， 故 所 需 的 时 间 相 对 较 少 ， 复 杂 度 明 
显 降 低 。 


3 ”综合 相似 度 计算 方法 


3.1 兴趣 相似 度 
与 生活 中 朋友 关系 的 建立 不 同 ， 在 社交 网 络 中 ， 用 户 因 共 


市 等 。 用 户 的 地 点 属性 定义 如 下 : 
Les = ( Uprovince » Uciny ) (13) 

其 中 : Ceus 表示 用 户 的 地 点 特征 信息 ， Wiee 表示 用 户 所 在 的 
省 份 , ww 表示 用 户 所 在 的 城市 ,计算 时 需要 转换 成 对 应 的 数值 。 
综 上 所 述 ， 在 分 析 用 户 多 方面 的 背景 信息 后 ， 结 合用 户 的 
性 别 、 年 龄 和 地 点 信息 构建 用 户 背 景 信息 向 量 ， 定 义 如 


性 


= 


兴趣 L199。 传 统 推 荐 领域 中 ， 研 究 人 员 从 用 户 对 商品 、 音 乐 的 评 


DB1 = (Ce Ui eaU res) (14) 
其 中 : BI, 表示 用 户 4 的 背景 特 和 向量 量 ， i Cage 、 U aaress 分 别 


Us 
自 。 
Ya 


分 中 挖掘 用 户 的 兴趣 ， 如 用 户 对 某 本 书籍 进行 了 评分 ， 系 统 会 
找 出 与 该 书 相似 的 书籍 ， 推 荐 给 用 户 。 随 着 微 博 愈加 热门 ， 其 
资源 和 数据 的 进一步 扩大 ， 控 掘 用 户 兴 趣 来 为 用 户 进行 推荐 的 
研究 工作 愈加 重要 ， 而 利用 微 博 用 户 关系 来 间接 挖掘 用 户 兴 趣 
的 方法 较 少 。 本 文通 过 用 户 社交 关系 网 络 中 关注 的 重要 用 户 来 
挖掘 用 户 的 兴趣 ， 从 而 计算 用 户 的 兴趣 相似 度 。 该 方法 具体 过 
程 见 第 3 章 的 说 明 。 
3.2 ”背景 信息 相似 度 

在 计算 微 博 用 户 的 相似 度 时 ， 很 多 研究 都 综合 


考虑 了 用 户 


到 


表示 用 户 4 的 性 别 、 年 龄 、 地 点 特征 1 
背景 相似 度 计 算 公式 为 


BI(A). BI(B) 


Sims,(A,B)=cos(BI(A), BI(B))= 区 CEXj (15) 


其 中 : Simw(4,B) 表示 用 户 A 和 8 的 背景 相似 度 ，BI(A) 、BI(B) 
表示 用 户 A 、8 的 背景 特征 向 量 ， 通 过 余弦 距离 来 计算 用 户 的 


背景 相似 度 。 
3.3 ”综合 相似 度 计算 
系统 分 析 了 微 博 用 户 的 个 人 资料 、 关 注 关 系 、 互 动 关系 以 
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及 兴趣 点 ， 基 于 已 有 的 研究 ， 提 出 了 结合 用 


户 兴 趣 相似 与 背景 


注 关 系 信 息 ， 


相似 的 综合 模型 来 挖掘 微 博 社交 网 络 中 的 相 
2 所 示 。 


以 用 户 ， 模 型 如 图 


数据 预 处 理 
es ee 


基于 PageRank 
发 现 重 岂 


Ww | 基于 标签 对 重 
A 
了 


相似 度 


a ee 
综合 相似 用 户 


图 2 模型 结构 图 


Fig.2 Structure diagram of the model 

用 户 综合 相似 度 的 计算 步 又 : 

a) 数据 预 处 理 ; 

b) 计算 兴趣 相 

c) 计算 背景 相 
似 用 户 ; 

d) 综合 相似 的 用 户 。 
其 中 ，N 的 取 值 与 用 户 规模 数 有 关 ， 不 同 的 取 值 会 影响 计算 结 
果 的 准确 率 。 如 ， 为 某 用 户 推荐 10 个 最 相似 用 户 ， 若 N 的 取 
值 过 小 ， 无 法 保证 能 找到 综合 相似 的 前 10 个 用 户 ,但 若 N 取 
值 过 大 ， 会 增加 算法 的 计算 复杂 度 ， 所 以 应 根据 实际 情况 ， 合 
里 的 选择 N 的 取 值 。 

因此 在 计算 用 户 相似 度 时 ， 先 挖掘 出 兴 
计算 其 背景 相似 度 ， 层 次 化 的 挖掘 出 综合 信 
该 方法 一 方面 降低 了 对 所 有 用 户 计算 特征 向 量 
了 算法 的 性 能 ， 另 一 方面 保证 了 推荐 结果 与 用 
的 。 


4 ”实验 与 分 析 


数据 获取 

为 了 验证 提出 模型 在 计算 微 博 用 户 相 似 度 的 有 效 性 ， 本 文 
利用 UCI 官 网 的 MicroblogPCU 数据 和 
(https://archive.ics.uci.edu/ml/machine-learning-databases/00323/) 
该 数据 集 包 括 59191 名 用 户 以 及 142369 条 的 关 


以 ， 挖 掘 兴 趣 最 相似 的 N 个 用 户 ; 
以 ， 从 兴趣 相似 的 N 个 用 户 中 挖掘 背景 相 


相似 的 用 户 ， 再 
最 相似 的 用 户 。 
的 复杂 性 ， 提 高 
户 兴 趣 点 是 相关 


汪 售 


4.1 


uy 


来 进行 实验 。 


用 户 名 、 
户 数 、 粉 丝 数 
个 ， 实 验 利 ) 
户 作 为 测试 来 


4.2 结果 与 分 析 
了 用 户 的 关注 关系 网 络 ,得 到 用 


首先 分 析 
如 图 3 所 示 。 


Fig.3 Interest diagram 
ForceAtlas 布局 来 可 


图 3 采 


性 别 、 


他 们 的 关注 关系 来 构建 用 


其 中 782 名 用 户 有 详细 个 人 信息 ， 包 括 用 
标签 、 博 文 数 、 关 注 用 
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户 ID、 


账号 等 级 、 地 点 信息 、 
，262 位 用 户 带 有 自 定义 标签 ， 


验证 


F 模 型 。 


图 3 用 户 关 注 


兴趣 


户 的 关系 网 ， 剩 下 的 用 


区 | 


标签 总 数 为 1441 


户 的 关注 兴趣 图 ， 


of user's attention 


视 化 


z 


户 的 关注 兴趣 。 图 中 


的 每 个 节点 表 


示 一 个 用 户 ， 每 两 个 用 户 


越 多 的 用 户 关 
络 中 用 户 的 兴 
用 户 的 兴趣 有 
趣 相对 较 广 。 
相关 推荐 时 ， 


注 ， 图 中 该 用 
有 明显 的 类 别 ， 


的 关注 形成 一 条 边 ， 被 
户 的 节点 就 越 大 。 可 以 发 现 ， 该 网 
大 多 数 | 


户 的 兴趣 相对 集中 ， 


州 


多 个 类 别 ， 一 些 用 户 同时 关注 了 几 个 领域 ， 其 兴 


对 于 关注 多 个 领域 的 
会 有 潜在 误差 过 大 的 风险 


用 户 ， 


? 


专 统 CN 算法 在 进行 
因为 用 户 的 兴趣 是 多 


样 的 ， 仅 通过 
首先 通过 


重要 用 户 ， 


将 


标签 进行 聚 类 。 
有 效 性 评价 标准 


这 些 ) 


应 该 将 重要 用 
有 两 种 ， 一 种 是 ; 


的 一 致 性 来 评 


过 类 内 离 差 矩 
结果 的 好 坏 ， 


其 中 : n 表示 要 
差 矩 阵 的 迹 ， 


在 不 同 聚 类 数 条 件 下 ， 
Calinski-Harabasz(CH) 指 标 来 评价 标 


同好 友 数 量 来 推荐 相似 用 户 ， 效 果 较 差 。 
PageRank 算法 ， 挖 掘 出 该 
户 的 标签 进行 分 词 ， 构 建 标签 向 量 ， 
户 聚 成 多 少 个 类 别 ? 椒 


网 络 中 被 关注 较 多 的 
基 于 


彩 类 结果 


通过 测量 聚 类 结果 和 参考 标准 


价 聚 类 结果 的 优良 ; 


EE 
-4 


阵 的 紧密 度 和 类 
公式 的 定义 如 下 : 


CH(Kk)= 


聚 类 结果 数 ， 


种 是 评价 同 


聚 类 算法 


聚 类 结果 的 优良 程度 CD 。 采用 
案 类 结果 的 好 坏 。CH 指标 通 
间 离 差 矩 阵 的 分 离 度 来 判断 聚 


1rB(D/K-D 
trW(K)/(n—k) 
K 表示 当前 的 类 ， 
wrW(k) 表示 类 内 离 差 矩 阵 的 迹 。 
的 元 素 越 紧密 ， 


= 
这 
i 


(16) 


trB(k) 表示 类 间 离 
CH 值 越 大 ， 同 类 


不 同类 别 越 分 散 ， 聚 类 效果 就 越 好 。 


201811.00142v1 


chinaXiv 


黄 贤 英 ， 等 : 


实验 中 ， 不 同 聚 类 数 的 结果 下 CH 值 如 图 4 所 示 。 


人 


234567 8 910111213141516171819 20 21 22 232425 
聚 类 数 k 


图 4 不 同 聚 类 数 的 CH 值 
Fig.4 CH of different cluster numbers 

图 4 是 将 这 些 重要 用 户 聚 成 2 到 25 个 不 同类 别 的 结果 。 
可 以 看 到 ， 当 上 =5 时 ，CH 值 较 好 。 但 发 现 依 此 建立 用 户 的 兴 
趣 向 量 , 较 多 被 关注 的 用 户 在 同一 个 类 中 ,模型 的 准确 率 较 差 ， 
当 k=10 时 ， 算 法 的 准确 率 相对 较 好 ， 因 此 将 重要 用 户 聚 成 10 
个 类 ， 并 依 此 构建 普通 用 户 的 兴趣 向 量 ， 故 不 同 数据 集 的 聚 类 
数 要 根据 实际 情况 而 定 。 

为 了 验证 算法 的 有 效 性 ， 采 用 准确 率 (precision rate )、 召 世 
率 (recallrate)、 厂 值 (F-measure) 作为 评估 指标 ， 各 个 公式 定 
义 如 式 (17)~(19) 所 示 。 


en NNW, 
Precision = 一 = 


(17) 
其 中 : 人 表示 向 用 户 推荐 的 好 友 集合 ，N, 表示 用 户 已 经 关注 的 


好 友 集 合 ， Precision 表示 准确 率 ， 是 指向 用 户 推荐 的 正确 相似 
用 户 数 与 推荐 用 户 数 的 比值 。 
NmN， 
Recall = N. (18) 
其 中 : Recall 表示 召回 率 , 指向 用 户 推荐 的 正确 相似 用 户 数 与 用 
户 已 经 关注 的 好 友 数 的 比值 。 
2x Precision x Recall 
0 Precision + Recall (2 
其 中 : F-measure 表示 正确 率 和 召回 率 的 调和 平均 值 ， 


下 -measwe 值 越 大 ， 则 该 方法 的 结果 越 准确 。 

对 比 算法 包括 综合 用 户 兴 趣 相 似 与 背景 相似 的 计算 方法 
(BIBS 算法 )、 只 结合 用 户 兴 趣 的 相似 度 计算 方法 (BIS 算法 )、 
文献 [8] 提 出 的 MISUR 算法 以 及 共同 邻居 数 算法 (CN 算法 )。 实 
验 从 数据 集中 选取 了 131 名 用 户 及 其 关注 好 友 关 系数 据 ， 验 证 
了 本 文 的 算法 和 其 他 对 比 算 法 的 准确 率 、 召 回 率 和 了 值 。 

各 个 算法 的 准确 率 对 比 结果 如 图 5 所 示 。 

如 图 5 所 示 , 推荐 人 数 从 5 到 25 名 用 户 , 综合 用 户 兴趣 相 
似 与 背景 相似 的 计算 方法 (BIBS 算法 ) 的 准确 率 是 最 高 的 ， 说 明 
从 用 户 关系 网 络 中 获取 用 户 兴 趣 的 方法 是 有 效 的 ， 综 合用 户 兴 
趣 和 背景 信息 能 更 加 准确 的 挖掘 出 微 博 中 的 相似 用 户 ， 相 比 于 
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MISUR 算法 ， 准 确 率 平均 提高 了 8.1%。 
各 个 算法 的 召回 率 对 比 结果 如 图 6 所 示 。 
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图 5 准确 率 对 比 图 
Fig.5 Comparison of precision rate 
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图 6 召回 率 对 比 图 
Fig.6 Comparison of recall rate 
从 图 6 可 以 看 出 ， 随 着 推荐 人 数 的 增多 ， 所 有 算法 的 
率 值 都 在 上 升 , 推荐 人 数 为 25 时 , 文献 [8] 算 法 的 召回 率 最 
但 是 本 文 的 BIBS 算法 综合 结果 相对 较 好 ， 召 回 率 平均 提 
16.7%。 
各 个 算法 的 五 值 对 比 结果 如 图 7 所 示 。 
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图 7 下 值 对 比 图 


Fig.7 Comparison of F-measure 
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五 值 作为 综合 评价 指标 , 根据 图 7 所 示 ，BIBS 算法 是 最 有 算 微 博 用 户 相似 度 的 准确 性 。 
效 的 , 相 比 于 MISUR 算法 ,F 值 平均 提高 了 13.6%。 综 上 所 述 ， 
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